CLIP-seq RNA结合蛋白分析¶

一句话概述¶

分析eCLIP/iCLIP/HITS-CLIP数据鉴定RNA结合蛋白（RBP）的基因组结合位点，利用CTK/PureCLIP等工具进行peak calling和结合motif发现，揭示转录后调控网络。

核心知识点总览¶

知识点	关键内容	重要程度
CLIP技术原理	UV交联→IP→测序检测RBP-RNA互作	⭐⭐⭐⭐⭐
eCLIP标准流程	ENCODE标准eCLIP实验与分析	⭐⭐⭐⭐⭐
Peak calling	PureCLIP/CLIPper/Piranha	⭐⭐⭐⭐
交联位点识别	iCLIP的truncation/HITS-CLIP的突变	⭐⭐⭐⭐
Motif发现	HOMER/MEME/DREME结合基序	⭐⭐⭐⭐
功能注释	结合位点在UTR/intron/CDS分布	⭐⭐⭐
与表达整合	RBP结合与靶RNA调控关系	⭐⭐⭐
数据库资源	ENCODE eCLIP/CLIPdb/POSTAR	⭐⭐⭐

各步骤详解¶

第一步：CLIP技术变体与原理¶

白话解释： CLIP（CrossLinking and ImmunoPrecipitation）技术家族通过紫外交联将RNA结合蛋白"焊接"到其接触的RNA上，然后用抗体把目标蛋白及其结合RNA一起"钓"出来，最后测序鉴定RNA片段的身份和位置。不同变体（HITS-CLIP/iCLIP/eCLIP）在如何精确定位交联位点上有差异。

技术细节： - HITS-CLIP：交联位点在reads中表现为特征性突变（deletion/substitution） - iCLIP：利用逆转录在交联位点终止的特性，truncation site即为结合位点 - eCLIP：ENCODE优化版CLIP，增加size-matched input控制，减少背景噪声

# CLIP数据特点
# - 单端测序为主（eCLIP有PE版本）
# - reads长度短且不均一
# - PCR重复率高（需UMI去重）
# - 需要size-matched input作为背景控制

# 数据文件
# IP样本：RBP-bound RNA fragments
# Input/SMInput：size-matched input control

第二步：数据预处理¶

白话解释： CLIP数据预处理比常规RNA-seq更复杂：需要去除接头（通常在3'端）、去除PCR重复（使用UMI或坐标去重）、去除rRNA/重复序列的reads，然后比对到基因组。

技术细节：

# === eCLIP数据预处理（ENCODE pipeline）===

# 1. 接头去除（cutadapt，eCLIP有两轮接头）
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
    -o trimmed_R1.fq.gz raw_R1.fq.gz
# 如果有UMI在R2中：
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
    -o trimmed_R2.fq.gz raw_R2.fq.gz

# 2. UMI提取（如果有）
umi_tools extract --stdin=trimmed_R1.fq.gz --stdout=umi_R1.fq.gz \
    --bc-pattern=NNNNNNNNNN  # 10bp UMI

# 3. 比对（STAR）
STAR --runThreadN 16 \
    --genomeDir star_index \
    --readFilesIn umi_R1.fq.gz \
    --readFilesCommand zcat \
    --outSAMtype BAM SortedByCoordinate \
    --outFilterMultimapNmax 1 \
    --outFilterMismatchNmax 2 \
    --outFileNamePrefix eclip_

# 4. UMI去重
umi_tools dedup -I eclip_Aligned.sortedByCoord.out.bam \
    -S eclip_dedup.bam --method unique

# 或使用坐标去重（无UMI时）
samtools markdup -r eclip_sorted.bam eclip_dedup.bam

# 5. 同样处理SMInput
# ... 相同步骤处理 input 样本 ...

第三步：Peak calling¶

白话解释： Peak calling找出IP样本中reads富集的区域——这些就是RBP的结合位点。通过与input比较，排除非特异性背景富集。不同工具使用不同统计模型检测富集区域。

技术细节：

# === PureCLIP（基于HMM的精确交联位点检测）===
pureclip -i eclip_dedup.bam -bai eclip_dedup.bam.bai \
    -g genome.fa \
    -o pureclip_crosslink_sites.bed \
    -or pureclip_regions.bed \
    -nt 16 \
    -iv 'chr1;chr2;chr3' \  # 用于训练参数的染色体
    -dm 8  # merge distance

# === CLIPper（ENCODE eCLIP官方peak caller）===
clipper -b eclip_dedup.bam \
    -s hg38 \
    -o clipper_peaks.bed \
    --processors 16

# 用input做归一化过滤
# 计算IP/Input的fold enrichment
# 保留 log2(IP/Input) > 3 的peaks

# === Piranha ===
Piranha -s eclip_dedup.bam \
    -o piranha_peaks.bed \
    -p 0.01 \
    -b 50  # bin size

# === 使用IDR合并重复（ENCODE标准）===
idr --samples rep1_peaks.bed rep2_peaks.bed \
    --input-file-type bed \
    --output-file idr_peaks.bed \
    --idr-threshold 0.01

第四步：iCLIP交联位点精确定位（CTK工具集）¶

白话解释： iCLIP利用逆转录在交联位点停止的原理，reads的5'端（truncation site）精确对应RBP的结合位点（单碱基分辨率）。CTK（CLIP Tool Kit）是专门处理iCLIP数据的工具集。

技术细节：

# === CTK iCLIP分析 ===
# CTK: https://github.com/chaolinzhanglab/ctk

# 1. 解析和去重
perl ctk/stripBarcode.pl -format fastq \
    -len 5 raw.fq.gz stripped.fq.gz barcode.txt

# 比对后去PCR重复（基于barcode+mapping position）
perl ctk/tag2collapse.pl -v --random-barcode \
    -EM 30 --seq-error-model em-local \
    eclip_sorted.bed eclip_uniq.bed

# 2. 识别交联位点（CITS: CrossLink-Induced Truncation Sites）
perl ctk/tag2peak.pl -big -ss -v \
    --valley-seeking --valley-depth 0.9 \
    -p 0.001 \
    eclip_uniq.bed eclip_peaks.bed \
    --out-boundary eclip_boundaries.bed

# 3. 获取单碱基分辨率的交联位点
perl ctk/CITS.pl -big -ss -v \
    -p 0.001 \
    eclip_uniq.bed eclip_CITS.bed

第五步：结合Motif发现与功能注释¶

白话解释： RBP通常识别特定的RNA序列基序（motif）。从peak区域的序列中用motif发现工具可以找到这些基序。同时分析peak在基因结构中的分布（3'UTR/5'UTR/intron/CDS），可以推断RBP的功能模式。

技术细节：

# === Motif发现 ===

# 提取peak区域序列
bedtools getfasta -fi genome.fa -bed peaks.bed -fo peak_sequences.fa -s

# HOMER motif发现
findMotifsGenome.pl peaks.bed hg38 homer_output/ \
    -rna -size 50 -mis 1 -p 8

# MEME/DREME
dreme -rna -p peak_sequences.fa -o dreme_output/
meme peak_sequences.fa -rna -oc meme_output/ -mod zoops -nmotifs 10 -minw 4 -maxw 10

# === 功能注释 ===
library(GenomicRanges)
library(GenomicFeatures)

# 加载基因注释
txdb <- makeTxDbFromGFF("gencode.v38.gtf")
peaks_gr <- import("peaks.bed")

# 注释peak位置
utr3 <- threeUTRsByTranscript(txdb, use.names = TRUE)
utr5 <- fiveUTRsByTranscript(txdb, use.names = TRUE)
cds <- cdsBy(txdb, by = "tx", use.names = TRUE)
introns <- intronsByTranscript(txdb, use.names = TRUE)

# 统计分布
n_3utr <- sum(countOverlaps(peaks_gr, unlist(utr3)) > 0)
n_5utr <- sum(countOverlaps(peaks_gr, unlist(utr5)) > 0)
n_cds <- sum(countOverlaps(peaks_gr, unlist(cds)) > 0)
n_intron <- sum(countOverlaps(peaks_gr, unlist(introns)) > 0)

cat(sprintf("3'UTR: %d (%.1f%%)\n5'UTR: %d (%.1f%%)\nCDS: %d (%.1f%%)\nIntron: %d (%.1f%%)\n",
    n_3utr, n_3utr/length(peaks_gr)*100,
    n_5utr, n_5utr/length(peaks_gr)*100,
    n_cds, n_cds/length(peaks_gr)*100,
    n_intron, n_intron/length(peaks_gr)*100))

第六步：与基因表达整合分析¶

白话解释： RBP结合到RNA上后可能促进或抑制其表达（影响稳定性/翻译/剪接等）。通过比较RBP敲除/过表达前后的转录组变化，与CLIP结合位点信息整合，可以确定RBP对靶标的调控方向和机制。

技术细节：

# === CLIP + RNA-seq整合 ===

# 1. 确定RBP的直接靶基因
# 有peak的基因 = 直接靶标
target_genes <- unique(peaks_annotated$gene_name)

# 2. 与RBP KD后的差异基因比较
kd_de_genes <- read.csv("RBP_knockdown_DEGs.csv")

# 直接靶标中有多少差异表达
direct_targets_de <- intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])
cat(sprintf("Direct targets with expression change: %d / %d (%.1f%%)\n",
    length(direct_targets_de), length(target_genes),
    length(direct_targets_de)/length(target_genes)*100))

# 3. Fisher精确检验：RBP靶标是否富集于差异基因
all_genes <- unique(kd_de_genes$gene)
fisher_table <- matrix(c(
  length(intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
  length(setdiff(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
  sum(kd_de_genes$padj < 0.05) - length(direct_targets_de),
  length(all_genes) - length(target_genes) - sum(kd_de_genes$padj < 0.05) + length(direct_targets_de)
), nrow = 2)
fisher.test(fisher_table)

# 4. 调控方向：3'UTR结合通常促降解
# 靶标在KD后上调 → RBP促进降解
# 靶标在KD后下调 → RBP促进稳定/翻译

实战命令速查¶

# eCLIP标准流程
cutadapt -a ADAPTER -m 18 -o trimmed.fq.gz raw.fq.gz
STAR --genomeDir index --readFilesIn trimmed.fq.gz --outSAMtype BAM SortedByCoordinate
umi_tools dedup -I sorted.bam -S dedup.bam
clipper -b dedup.bam -s hg38 -o peaks.bed
findMotifsGenome.pl peaks.bed hg38 motif_out/ -rna

面试常问点¶

Q1: eCLIP与iCLIP的主要区别？¶

A: eCLIP（enhanced CLIP）是ENCODE标准化的CLIP方案，使用size-matched input(SMInput)作为对照减少背景，实验效率高适合大规模应用。iCLIP利用逆转录终止特性在单碱基水平定位交联位点，分辨率更高但实验更复杂。eCLIP更适合genome-wide binding profiling，iCLIP更适合精确结合位点定位。

Q2: CLIP数据分析中如何处理PCR重复？¶

A: PCR重复在CLIP数据中尤其严重（起始RNA量少需大量扩增）。处理方法：(1) UMI去重（最可靠）——每个分子有唯一条形码；(2) 坐标去重——相同起止位置的reads只保留一条（可能误删真实独立分子）；(3) 随机化策略——允许少量相同坐标reads保留。推荐使用UMI（eCLIP标准）。

Q3: 如何评估CLIP实验质量？¶

A: 关键指标：(1) IP效率——IP vs Input的reads数比值；(2) Peak数量——好的实验通常有数千到数万peaks；(3) Motif enrichment——已知RBP motif应在peaks中显著富集；(4) 重复一致性——IDR阈值下的重复peaks比例；(5) 信号分布——peaks应富集在RBP预期的功能区域（如剪接调控因子应在内含子-外显子交界处）。

Q4: 为什么需要SMInput控制？¶

A: Size-Matched Input去除了与RBP结合无关的RNA富集背景——某些高丰度RNA（rRNA片段、snRNA）或有特定二级结构的RNA在免疫沉淀步骤中非特异性共纯化。只有IP/SMInput显著富集的peaks才是真实结合位点。不使用input会产生大量假阳性。

Q5: ENCODE eCLIP数据如何获取和使用？¶

A: ENCODE已对>200个RBP做了eCLIP（K562和HepG2细胞系），数据公开在ENCODE Portal。可下载processed peaks（IDR filtered）直接使用，或下载BAM文件重新分析。CLIPdb和POSTAR数据库整合了多来源CLIP数据。使用时应注意细胞类型特异性——不同细胞的RBP结合谱可能不同。

易错点¶

1. 使用ChIP-seq工具直接分析CLIP数据¶

CLIP reads分布特征与ChIP不同（更短、更窄的peaks），且CLIP的背景模型不同。应使用CLIP专用工具（CLIPper/PureCLIP/Piranha）而非MACS2。

2. 忽略链特异性¶

RBP结合RNA有方向性。CLIP数据分析必须保持链信息（stranded analysis），否则会把对面链的信号误认为结合位点。

3. 不同CLIP变体的交联位点定义不同¶

HITS-CLIP中交联位点是reads中的deletion/mutation（CIMS），iCLIP中是reads 5'端（truncation site/CITS），eCLIP同样利用truncation特性（协议基于改进的iCLIP），但通常以peak-level enrichment结合SMInput归一化来定义结合区域。分析方法应匹配实验类型。

4. Peak过多或过少的参数调整¶

没有"正确"的peak数——不同RBP结合数百到数万个位点不等。应结合motif验证和KD实验确认peak set的生物学合理性。

5. 混淆直接靶标和间接效应¶

CLIP检测的是直接物理结合，但KD后的表达变化包含大量间接效应。只有CLIP target∩KD DE genes才是有调控证据的直接靶标。

补充知识¶

CLIP技术前沿¶

TRIBE/HyperTRIBE：无需IP，通过ADAR-RBP融合蛋白标记结合位点
STAMP：单细胞水平的RBP结合检测
LACE-seq：低输入量CLIP

较新分析工具¶

DEWSeq：Bioconductor包，基于滑动窗口+DESeq2统计框架的eCLIP/iCLIP peak calling，在灵敏度和特异性上优于传统方法（Schwarzl et al., NAR, 2024）

数据库资源¶

ENCODE eCLIP：>200 RBPs，标准化peaks
POSTAR3：整合的RBP binding atlas
CLIPdb：CLIP数据库
RBPmap：RBP结合位点预测

引用推荐¶

eCLIP: Van Nostrand et al., Nature Methods, 2016
iCLIP: König et al., Nature Structural & Molecular Biology, 2010
PureCLIP: Krakau et al., Genome Biology, 2017
CTK: Shah et al., Bioinformatics, 2017

CLIP-seq RNA结合蛋白分析¶

一句话概述¶

核心知识点总览¶

各步骤详解¶

第一步：CLIP技术变体与原理¶

第二步：数据预处理¶

第三步：Peak calling¶

第四步：iCLIP交联位点精确定位（CTK工具集）¶

第五步：结合Motif发现与功能注释¶

第六步：与基因表达整合分析¶

实战命令速查¶

面试常问点¶

Q1: eCLIP与iCLIP的主要区别？¶

Q2: CLIP数据分析中如何处理PCR重复？¶

Q3: 如何评估CLIP实验质量？¶

Q4: 为什么需要SMInput控制？¶

Q5: ENCODE eCLIP数据如何获取和使用？¶

易错点¶

1. 使用ChIP-seq工具直接分析CLIP数据¶

2. 忽略链特异性¶

3. 不同CLIP变体的交联位点定义不同¶

4. Peak过多或过少的参数调整¶

5. 混淆直接靶标和间接效应¶

补充知识¶

CLIP技术前沿¶

较新分析工具¶

数据库资源¶

引用推荐¶

📚 相关文章推荐